Model Selection

Unified Text-Image Encoding

# Unified Text-Image Encoding

Colnomic Embed Multimodal 7b

ColNomic Embed Multimodal 7B is a state-of-the-art multi-vector multimodal embedding model, excelling in visual document retrieval tasks with support for multilingual and unified text-image encoding.

Multimodal Fusion Supports Multiple Languages

Nomic Embed Multimodal 7b

A 7-billion-parameter multimodal embedding model specialized in visual document retrieval tasks, achieving outstanding performance on the Vidore-v2 benchmark

Text-to-Image Supports Multiple Languages

Nomic Embed Multimodal 3b

Nomic Embed Multimodal 3B is a cutting-edge multimodal embedding model focused on visual document retrieval tasks, supporting unified text-image encoding, achieving an outstanding performance of 58.8 NDCG@5 in the Vidore-v2 test.

Text-to-Image Supports Multiple Languages

Colnomic Embed Multimodal 3b

ColNomic Embed Multimodal 3B is a 3-billion-parameter multimodal embedding model specifically designed for visual document retrieval tasks, supporting unified encoding of multilingual text and images.

Multimodal Fusion Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase